14. 练习:Epsilon 贪婪策略
练习:Epsilon 贪婪策略
在上个部分,你学习了 \epsilon 贪婪策略。
为了构建一个相对于当前动作值函数估值 Q 为 \epsilon 贪婪策略的策略 \pi,我们只需设置

针对每个 s\in\mathcal{S} 和 a\in\mathcal{A}(s)。注意,\epsilon 必须始终是 0-1(含)之间的值(即 \epsilon \in [0,1])。
你可以将遵守 \epsilon 贪婪策略的智能体看做始终可以操控硬币方向(可能不公平),正面朝上的概率是 \epsilon。观察状态后,智能体就会抛掷该硬币。
- 如果硬币背面朝上(因此概率为 1-\epsilon),智能体选择贪婪动作。
- 如果硬币正面朝上(因此概率为 \epsilon),智能体从一组潜在(非贪婪和贪婪)动作中均匀地随机选择一个动作。
在这道练习中,你将回答几个问题以检验你的知识理解情况。
SOLUTION:
- (1) epsilon = 0
SOLUTION:
- (5) 所有 ε 值都不满足该要求。
SOLUTION:
- (4) epsilon = 1
SOLUTION:
- (2) epsilon = 0.3
- (3) epsilon = 0.5
- (4) epsilon = 1